时间差分方法
Back to Home
01. 简介
02. 迷你项目:时间差分方法 (OpenAI Gym-CliffWalkingEnv)
03. TD 预测:TD(0)
04. 实现
05. 迷你项目:时间差分方法(第 0 部分和第 1 部分)
06. TD 预测:动作值
07. TD 控制:Sarsa(0)
08. 实现
09. 迷你项目:时间差分方法(第 2 部分)
10. TD 控制:Sarsamax
11. 实现
12. 迷你项目:时间差分方法(第 3 部分)
13. TD 控制:预期 Sarsa
14. 实现
15. 迷你项目:时间差分方法(第 4 部分)
16. 分析性能
17. 总结
Back to Home
06. TD 预测:动作值
TD 预测:动作值
和 TD(0) 相似,这个用于估算动作值的方法保证会收敛于真动作值函数,只要步长参数
\alpha
足够小。
Next Concept